Omgaan met ontbrekende waarden in meetreeksen

Ontbrekende waarden zijn onvermijdelijk bij langlopende meetreeksen. Een goed voorbeeld hiervan zijn tellingen van overwinterende watervogels. Tijdens de wintermaanden worden maandelijks alle watervogels geteld in 700 Vlaamse gebieden. Op die manier probeert het INBO betrouwbare populatieschattingen en -trends te bepalen voor de verschillende soorten watervogels. Hoewel we streven om alles te tellen, zijn er altijd wel een aantal gebieden die door omstandigheden niet bezocht worden. Als we niet corrigeren voor die ontbrekende tellingen, zullen we het werkelijk aantal watervogels onderschatten. Wanneer het aantal getelde gebieden bovendien varieert van jaar tot jaar, geven de jaarlijkse totalen ook geen correct beeld van de meerjaarlijkse trend.

We kunnen het probleem oplossen door de ontbrekende gegevens in te vullen met modelgebaseerde voorspellingen. Deze techniek noemen we imputatie en de voorspellingen zijn de geïmputeerde waarden. We spreken van enkelvoudige imputatie als we de voorspelling zelf gebruiken. Bij meervoudige imputatie kiezen we een willekeurige waarde die gebaseerd is op de voorspelling en de bijhorende onzekerheid.

Meervoudige imputatie is vrij courant in medische kringen (Rubin 1987), maar weinig gekend in een ecologische context waar enkelvoudige imputatie meer courant is (Underhill and Prys-Jones 1994; Pannekoek and Van Strien 2005; van der Meij 2013).

Onkelinx, Devos, and Quataert (2017b) vergeleken enkelvoudige en meervoudige imputatie bij vogeltellingen. De belangrijkste conclusie is dat meervoudige imputatie de bijkomende onzekerheid correct in rekening brengt, terwijl enkelvoudige imputatie deze onderschat.

Aanbevelingen

  1. Probeer ontbrekende waarnemingen zoveel mogelijk te vermijden.
  2. Gebruik steeds meervoudige imputatie.
  3. Besteed de nodige aandacht aan het maken van een goed voorspellingsmodel.

Om het gebruik van meervoudige imputatie in ecologie te vereenvoudigen, hebben we het R package multimput ontwikkeld (Onkelinx, Devos, and Quataert 2017a). Dit is vrij beschikbaar via https://github.com/inbo/multimput

Gesimuleerde gegevens die het verschil tussen enkelvoudige en meervoudige imputatie illustreren.

Referenties

Onkelinx, Thierry, Koen Devos, and Paul Quataert. 2017a. Multimput: Using Multiple Imputation to Address Missing Data. http://dx.doi.org/10.5281/zenodo.48423.

———. 2017b. “Working with population totals in the presence of missing data comparing imputation methods in terms of bias and precision.” Journal of Ornithology 158. Springer Berlin Heidelberg: 603–15. doi:10.1007/s10336-016-1404-9.

Pannekoek, Jeroen, and Arco Van Strien. 2005. “TRIM 3 Manual (TRends & Indices for Monitoring data).” Voorburg.

Rubin, D. B. 1987. Multiple imputation for nonresponse in surveys. New York, NY: John Wiley; Sons, Ltd.

Underhill, L. G., and R. P. Prys-Jones. 1994. “Index numbers for waterbird populations. I. Review and methodology.” Journal of Applied Ecology 31 (3): 463–80. doi:10.2307/2404443.

van der Meij, T. 2013. “birdSTATs. Species Trends Analysis Tool (STAT) for European bird data.” Oegstgeest, The Netherlands: Bioland Informatie.